home *** CD-ROM | disk | FTP | other *** search
/ ftp.cs.arizona.edu / ftp.cs.arizona.edu.tar / ftp.cs.arizona.edu / icon / newsgrp / group98c.txt / 000009_icon-group-sender _Thu Sep 10 16:56:49 1998.msg < prev    next >
Internet Message Format  |  2000-09-20  |  5KB

  1. Return-Path: <icon-group-sender>
  2. Received: from kingfisher.CS.Arizona.EDU (kingfisher.CS.Arizona.EDU [192.12.69.239])
  3.     by baskerville.CS.Arizona.EDU (8.9.1a/8.9.1) with SMTP id QAA04970
  4.     for <icon-group-addresses@baskerville.CS.Arizona.EDU>; Thu, 10 Sep 1998 16:56:48 -0700 (MST)
  5. Received: by kingfisher.CS.Arizona.EDU (5.65v4.0/1.1.8.2/08Nov94-0446PM)
  6.     id AA31454; Thu, 10 Sep 1998 16:56:21 -0700
  7. Date: Fri, 11 Sep 1998 08:56:14 +1200 (NZST)
  8. From: "Richard A. O'Keefe" <ok@atlas.otago.ac.nz>
  9. Message-Id: <199809102056.IAA16557@atlas.otago.ac.nz>
  10. To: gep2@computek.net, icon-group@optima.CS.Arizona.EDU
  11. Subject: Re:  Unicode support or support for non-Ascii based character manipulation?
  12. Errors-To: icon-group-errors@optima.CS.Arizona.EDU
  13. Status: RO
  14.  
  15. Gordon Peterson (http://www.computek.net/public/gep2/) wrote:
  16.     
  17.     Okay, I don't dispute that this move is happening but personally I still don't 
  18.     very much like it.  The fact is that (at least here in the Western Hemisphere, 
  19.     where probably most of the world's computers are used) an eight-bit byte is 
  20.     already quite sufficient for most purposes, and doubling it comes at a cost in 
  21.     complexity and storage (RAM, disk, tape, whatever) which is simply very, very 
  22.     hard to justify on any genuine economic basis.
  23.  
  24. This is a fictitious problem.
  25. UNIX systems at least support UTF-8, which is a compression method
  26. described in ISO 10646 and the Unicode book that has the property
  27. that ASCII characters *still* occupy exactly one byte each.  When
  28. I use getwc() on this system, it decodes UTF-8 files and gives me
  29. ISO 10646 wide characters internally.
  30.  
  31.     If other countries have more difficult (or huge) character sets,
  32.     that is (while a fact of life) simply an inherent disadvantage
  33.     of their culture (and note that I'm not intending that as a slam
  34.     or value judgement, it just IS the way it is), and I don't see a
  35.     terribly convincing argument why the other countries (without
  36.     that disadvantage) ought to pay the price too, just in order to
  37.     artificially level the playing field.
  38.     
  39. Many people _within_ Weestern Europe do not have the luxury of dealing
  40. with only a single language.  I cannot write my father's name in ASCII,
  41. nor my sister-in-law's.  Both of them are (in my father's case, were)
  42. monoglot Anglophones born into monoglot Anglophone families in an
  43. English-speaking country.  I _can_ write their names in ISO Latin-1,
  44. but I _can't_ write half of the place-names of this country!
  45. (The officially approved orthography for Maori puts a macron over
  46. long vowels, like the 'a' in Maori.  There are no macrons in Latin-1.)
  47. Even if my text switched between Latin-1 family members, I _still_
  48. wouldn't be able to write English, because the inverted comma and
  49. and double inverted comma quotation marks are not available, let
  50. alone en dashes and em dashes.
  51.  
  52. The *only* character set around in which this functionally-monoglot
  53. Anglophone can write *in English* about the people and places around
  54. him is ISO 10646; even Latin-1 just isn't good enough FOR ENGLISH!
  55.  
  56. Note that ISO C, ISO C++ (which finally exists), and the world's first
  57. standard object-oriented language Ada95 all support wide characters.
  58. (You need the Technical Corrigenda for ISO C to get getwc() &co.),
  59. and that UNIX and Windows NT allow Unicode file names.
  60.  
  61. I also note that Icon (like SNOBOL before it) has been of particular
  62. interest to scholars in the humanities, who would, for example, like
  63. to put Hebrew _and_ Arabic in the same document with English, which
  64. is something you can't do in any ISO 8859 family member, not without
  65. code switching, which is much harder to deal with than Unicode.
  66.  
  67. There is the pretty obvious point that within Europe, they are going
  68. to *have* to use the new "Euro" sign.  (Why have the Europeans
  69. named their new currency after an Australian mammal?)  That's U+20AC,
  70. and if there's an 8-bit character set that has it, please tell us which.
  71.  
  72.     I can certainly understand and appreciate the problems that the huge character 
  73.     sets used in some eastern countries have played for them
  74.  
  75. Never mind eastern countries.  What about an American businessman writing
  76. to an office in Germany about their operations in Russia?  What about a
  77. theologian writing in English but quoting Hebrew and Greek frequently?
  78. What about an English professor writing a book in modern English about
  79. Old English (we've lost four letters, which can be found in Unicode
  80. but not any 8-bit character set I know of.  Ash _is_ in Latin1, but
  81. eth, thorn, yogh, and wynn are not.)
  82.  
  83.     > Has anyone thought about this yet? What does string and pattern matching
  84.     mean in, for example, Japanese?
  85.     
  86. The real problem is the equivalence one would expect between precomposed
  87. characters and base characters + floating diacriticals.  That's _really_
  88. proctalgic.
  89.  
  90. By the way, 16 bits isn't enough; there are proposals already far advanced
  91. in the pipeline for characters to go into Plane 1.
  92.